回归系列之线性回归概述
作者:夏雨骄阳 审阅:阿X 封面:自己想吧
回归是研究因变量对自变量的依赖关系的一种统计分析方法,目的是通过给定值来估计或预测因变量的均值。回归研究的是因变量和自变量之间的关系,可以用于发现变量之间的因果关系,也可以用于预测。回归分析按照涉及的自变量的多少,分为简单线性回归和多重线性回归。
所谓“简单”,是指在回归分析中只涉及一个因变量和一个自变量。所谓“线性”,是指因变量随着自变量的增加而增加(或减少),并且增加(或减少)的速度是不变的,两者的关系可以用一条直线来表现。
假设在一无限总体中,自变量X,因变量Y,X与Y之间具有线性关系,用Yi = ß0+ ß1Xi+e(式1)来模拟X与Y之间的这种线性关系,式1称为简单线性回归模型。模型中Y的第i个取值Yi,是自变量X的第i个取值Xi为自变量的线性函数ß0+ ß1Xi,再加上e,i=1,2,3,···,∞;ß0和ß1称为模型参数。e被称为误差项的随机变量,代表Y的取值除了受X的影响之外的其他因素或者说是随机的影响,e使得回归模型更加符合实际。
回归模型中,如果总体中的ß0和ß1是未知的,那么如何来估计这两个参数。一个现实的解决方案为,按随机原则从总体中抽取一个样本,根据样本数据计算出ß0和ß1对应的统计量的值,作为ß0和ß1的一个估计,从而得出回归方程的一个估计。
通过样本数据,如果能够判断出x和y之间确实存在线性关系,那么就可以拟合出一个确定的直线方程,这个直线方程代表了x与y之间的线性关系,它是对总体回归方程的一个估计,称为估计回归方程。简单线性估计回归方程,如yi = b0+b1xi(式2),b0是对ß0的一个估计,b1是对ß1的一个估计,因而yi是对E(Yi)的一个估计。
例如,30名儿童的升高和体重的数据,部分数据截图如图1,研究两者之间的关系。
图1
将数据的散点图绘制出来,发现两者之间有一种协变的关系,体重随着身高的增加而增加,并有呈直线的趋势。用简单线性回归分析法,拟合出一个确定的直线方程,即y = -26.62+0.40x,代表了身高与体重之间的线性关系,也称之为回归方程。
因变量的变化往往不取决于一个自变量,可能同时有两个或两个以上的自变量对其变化产生影响,此时简单线性回归模型就不适用了,需要用多重线性回归模型。多重线性回归,是指因变量Y与两个或两个以上自变量X1,X2,···,Xp的线性依赖关系。
假设在一无限总体中,自变量X1,X2,···,Xp,因变量Y,自变量X1,X2,···,Xp与Y之间具有线性关系,用Yi = ß0+ ß1X1i+ ß2X2i +···+ßpXpi +e(式3)来模拟X与Y之间的这种线性关系,式3称为多重线性回归模型。模型中Y的第i个取值Yi,是自变量X1,X2,···,Xp的第i个取值为自变量的线性函数ß0+ ß1X1i+ ß2X2i +···+ßpXpi,再加上e,i=1,2,3,···,∞,e被称为误差项的随机变量。
多重线性回归模型中,对模型参数ß0、ß1、···、ßp的估计方法同于简单线性回归模型。如yi = b0+b1x1i+ b2x2i +···+ bpxpi(式4),式4称为多重线性估计回归方程,b0、b1、···、bp是对ß0、ß1···、ßp的估计值,yi则是对E(Yi)的估计值。
例如,30名儿童的体重、身高、胸围的数据,部分数据截图如图3,研究体重与身高、胸围之间的关系。
图3
类似地,用多重线性回归分析法,拟合出一个确定的直线方程,即y = -36.133+0.299x1+0.362x2,代表了体重与身高、胸围之间的线性关系,也称之为回归方程。